Java Quartz 作业持久化

java - 为什么 Oozie 在运行 MapReduce 作业时分配更多内存？

我正在使用oozie运行MapReduce作业。从工作流中我只是调用MapReduce驱动程序类，除此之外别无其他。但是对于这个oozie工作流程需要大量内存。它需要至少2GB的容器大小来调用驱动程序类。下面是workflow.xml${jobTracker}${nameNode}mapred.job.queue.name${jobQueue}${jobScript}${arguments}${queueName}${wf:id()}myPath/MyDriver.sh#MyDriver.shJobfailedfailed:[${wf:errorMessage(wf:lastError

时分 MapReduce lt gt name java hadoop hadoop-yarn oozie

Hadoop 作业 : Error injecting constructor, JAXBException

在ApacheCrunch管道中实现的MapReduce作业失败并显示错误消息Errorinjectingconstructor,javax.xml.bind.JAXBException:property"retainReferenceToInfo"isnotsupported。Crunch管道与其他功能管道非常相似；有没有人对下面看到的错误有任何理论或直觉？感谢您的帮助。可以在下面找到应用程序日志的摘录:2016-02-1613:34:31,925INFO[main]org.mortbay.log:Extractjar:file:/data7/hadoop/yarn/local/fi

JAXBException constructor java hadoop apache mapreduce jaxb guice apache-crunch

hadoop - Oozie 作业被挂起并且未到达 YARN

我正在尝试通过cli启动OozieShell操作作业:ooziejob-configjobprops/jos.prioperties-runJob开始，它给了我一个唯一的Id，我可以在OozieUI中看到Job。但是，Yarn控制台显示没有提交的作业，并且在oozie中检查日志时我收到以下消息:Errorstartingaction[folder-structure].ErrorType[TRANSIENT],ErrorCode[JA009]Message[JA009:Permissiondenied:user=vikas.r,access=WRITE,inode="/":hdfs:h

hadoop Oozie section strong DefaultAuthorizationProvider mapreduce cloudera-cdh

hadoop - 当 NameNode 宕机时，hadoop 作业会发生什么？

在Hadoop1.2.1中，我想对以下这些问题有一些基本的了解谁接收hadoop作业？是NameNode还是JobTracker？如果有人在NameNode宕机时提交Hadoop作业会发生什么情况？hadoop作业会失败吗？还是进入Hold状态？如果有人在JobTracker宕机时提交Hadoop作业，会发生什么情况？hadoop作业是否失败？还是进入Hold状态？最佳答案对于Hadoop作业，您可能指的是MapReduce作业。如果您的NN出现故障，并且您没有备用的(在HA设置中)，您的HDFS将无法工作，并且依赖于此HDFS

hadoop 机时 section mapreduce

hadoop - 怎么知道没有。在 map 作业中运行的节点数

输入拆分的数量是否决定了mapreduce作业中运行节点的数量。我的意思是，如果我有5个输入拆分，这将使它们分布在5个节点上进行处理。map任务的数量是否与节点的数量相似？如何在clouderavm中检查最佳答案不split不决定节点数。Hadoop集群即NameNode、DataNode和其他服务由Hadoop管理员根据数据大小设置。在ClouderaVM打开浏览器(MozillaforCDH3)上有一个书签Namenode状态。单击它，Namenode将包含有关您正在处理的集群的所有元数据。要了解MapReduce框架执行的

中运点数 section hadoop mapreduce

hadoop - 如何防止 CDH 中的 Hue 在重启时清除作业历史记录？

我已经安装了CDH5.5.1和Hue、Hadoop、Spark、Hive、Oozie、Yarn和ZooKeeper。当我运行Spark作业或MapReduce作业时，Hue会在作业历史记录中显示一个问题。问题是，当我重新启动CDH服务(不是物理节点)时，它会删除重新启动之前的所有作业历史记录。在Hadoop上，我怀疑有几个文件包含有关任务的信息，并且可能是保存作业信息的文件。他们的hadoop路径是:/tmp/logs/user/logs//user/history/done/2016/我在ClouderaManager配置页面、Hue配置页面和一些配置文件中都找过，都没有找到。我不知

hadoop CDH code section Hue apache-spark cloudera-cdh cloudera-manager

hadoop - 运行组命令时 Pig 减少作业卡在 50%

我使用以下命令加载了一个包含大约6000行数据的文件A=load'/home/hduser/hdfsdrive/piginput/data/airlines.dat'usingPigStorage(',')as(Airline_ID:int,Name:chararray,Alias:chararray,IATA:chararray,ICAO:chararray,Callsign:chararray,Country:chararray,Active:chararray);B=foreachairlinegenerateCountry,Airline_ID;C=groupBbyCountr

hadoop Pig ReduceTask apache mapreduce apache-pig

java - 在 hbase 中插入数据时运行 hadoop 作业

每当在hbase表上完成插入时，我都需要运行hadoop作业吗？有一些可用的调度器Apache软件公平调度器我可以根据自己的目的选择哪一个？最佳答案 ApacheOozie是一个工作流调度器，用于设计作业工作流并协调它们在特定事件或控制流中设计时发生。Jobs可以是map-reduce、Streamingmap-reduce、Pig、Hive、Sqoop任务以及java程序和shell脚本。FairScheduler用作MapReduce作业的资源调度器。现在对于您的情况，您应该使用Oozie。

hadoop hbase strong section 中设 java oozie hadoop2

hadoop - 将作业从 talend DI 导出到 talend big data

我是talendETL工具的新手。我已经在talendDI(数据集成)工具中创建了作业工作流，现在我想使用hadoop切换/实现相同的作业，因为我正在使用talend大数据工具。谁能解释我如何实现这一目标。TalendDI到Talend大数据集成。最佳答案根据我的理解，DI和大数据Talend工具的库是不同的，可能是因为这种导入是不可能的。关于hadoop-将作业从talendDI导出到talendbigdata，我们在StackOverflow上找到一个类似的问题：

talend hadoop section 大数 etl data-integration bigdata

hadoop - 密码问题的 Sqoop 作业

Sqoop作业总是在CLI中提示输入密码。为了避免这种情况，据说应该将属性sqoop.metastore.client.record.password设置为true。但是到处都说我需要更改sqqop_site.xml中的这个值。无论如何我可以将这个值单独设置为一项工作。我尝试创建如下所示的作业，但sqoop无法创建它sqoopjob--createTEST-Dsqoop.metastore.client.record.password=true--import\--connectjdbc:netezza://xx.xxx.xx.xxx/database\--usernameuserna

hadoop Sqoop password section bigdata